Learning Deep Network Representations with Adversarially Regularized Autoencoders

简介

许多现存网络嵌入方法，从采样的节点序列中学得节点表示，但由于从网络中采样的序列具有稀疏性质，导致学得的模型不易泛化。解决该稀疏问题的一个理想方法是通过学习一个采样序列上的概率密度函数来产生表示。但在低维流形上分布往往并不存在分析解。在该论文中，作者提出使用对抗正则编码器（NETRA）来学习网络表示。NETRA学习一个正则节点表示，其通过联合考虑局部性留存和全局重建约束，可以很好的捕捉网络结构。该联合推理可以概述为使用生成对抗训练过程来避免对一个显示先验分布的要求，因此获得更好的泛化性能。

网络采样的稀疏问题如下图所示：

随机游走采样技术被广泛地用在网络嵌入研究中，但其受稀疏性问题的限制。对给定网络中的每一个节点，如果我们假设平均节点度是$\bar{d}$，行走长度是$l$，采样数目是$k$，于是采样率可以计算如下：

$p_{frac} \propto \frac{|V|\times k}{|V| \times \bar{d}^l} = \frac{k}{\bar{d}^l} \times 100\%$

方法

NETRA的框架如下图所示：

NETRA联合最小化网络局部性留存损失和LSTM自动编码器的重建损失。该联合嵌入推理使用生成对抗训练过程，避免了要求一个显式先验分布。该模型使用离散LSTM自动编码器，其输入是经过独热编码的节点序列，学习连续的节点表示，重建损失使用交叉熵损失函数。在最小化重建损失的同时，模型也在隐藏层最小化局部性留存损失。同时，连续空间生成器被训练，使其与编码器的分布一致。该生成对抗训练可以被视为是对网络嵌入过程的正则过程。

NETRA具有一个网络嵌入模式想要的两种性质：（1）结构性质留存。NETRA使用LSTM作为编码器来捕捉序列中节点之间的邻居信息。同时，该模型同时使用局部性留存约束来训练。（2）泛化能力。泛化能力要求网络嵌入模型可以在和大多数序列符合同样分布的未看见的节点序列上表现很好。生成对抗训练过程使得该模型平滑地学习正则表示，而不需要要给预定义的显式的密度分布，这就克服了输入节点序列的稀疏性问题。

优化

自动编码器的重建损失采用交叉熵损失函数，如下所示：

$\mathcal{L}_{\mathrm{AE}}(\phi, \psi ; \mathbf{x})=-\mathbb{B}_{\mathbf{x} \sim \mathbb{P}_{\text {data }}(\mathbf{x})}\left[\operatorname{dist}\left(\mathbf{x}, h_{\psi}\left(f_{\phi}(\mathbf{x})\right)\right)\right]$

局部留存性损失函数如下，实践上只计算有连边的节点对：

$\mathcal{L}_{L E}(\phi ; \mathbf{x})=\sum_{1 \leq i<j \leq n}\left\|f_{\phi}\left(\mathbf{x}^{(i)}\right)-f_{\phi}\left(\mathbf{x}^{(j)} \|^{2} \varphi_{i j}\right.\right.$

对于生成对抗训练过程，NETRA最小化编码器学得表示的分布$f_\phi(x) \sim \mathbb{P}_\phi(x)$和连续生成器模型的表示的分布$g_\theta(z) \sim \mathbb{P}_\theta(z)$之间的距离，对偶形式如下：

$W\left(\mathbb{P}_{\phi}(\mathbf{x}), \mathbb{P}_{\theta}(\mathbf{z})\right)=\sup _{\|d(\cdot)\|_{L \leq 1}} \mathbb{B}_{\mathbf{y} \sim \mathbb{P}_{\phi}(\mathbf{x})}[d(\mathbf{y})]-\mathbb{E}_{\mathbf{y} \sim \mathbb{P}_{\theta}(\mathbf{z})}[d(\mathbf{y})]$

其中$\parallel d(\cdot)\parallel_{L\leq1}$是利普希茨连续条件约束（Lipschitz continuity constraint。

对于生成器来说，代价函数定义如下：

$\mathcal{L}_{\mathrm{GEN}}(\theta ; \mathbf{x}, \mathbf{z})=\mathbb{E}_{\mathbf{x} \sim P_{\text {data }}(\mathbf{x})}\left[d_{\mathbf{w}}\left(f_{\phi}(\mathbf{x})\right)\right]-\mathbb{B}_{\mathbf{z} \sim \mathbb{P}_{g}(z)}\left[d_{w}\left(g_{\theta}(\mathbf{z})\right)\right]$

对于判别器来说，代价函数定义如下：

$\mathcal{L}_{\mathrm{DIS}}(w ; \mathbf{x}, z)=-\mathbb{B}_{\mathbf{x} \sim P_{\text {data }}(\mathbf{x})}\left[d_{w}\left(f_{\phi}(\mathbf{x})\right)\right]+\mathbb{B}_{\mathbf{z} \sim P_{g}(\mathbf{z})}\left[d_{w}\left(g_{\theta}(\mathbf{z})\right)\right]$

因此，该联合优化问题的目标函数如下：

$\mathcal{L}_{\mathrm{NETRA}}(\phi, \psi, \theta, w)=\mathcal{L}_{\mathrm{AE}}(\phi, \psi ; \mathbf{x})+\lambda_{1} \mathcal{L}_{\mathrm{LE}}(\phi ; \mathbf{x})+\lambda_{2} W\left(\mathbb{P}_{\phi}(\mathbf{x}), P_{\theta}(\mathrm{z})\right)$

算法流程如Algorithm 1 所示：

Algorithm 1

结论

在该论文中，作者提出NETRA，一种用于将网络中的每一个节点编码成低维向量表示的使用生成对抗正则编码器的深度网络嵌入模型。该模型证明了生成对抗训练过程在提取信息表示方面的能力。该提出的模型具有很好的泛化能力，无须要求一个对隐表示的显式的先验密度分布。另外，作者使用LSTM自动编码器，其使用采样的节点序列作为输入，来学习平滑的节点表示，该表示通过局部留存约束和生成对抗过程来正则。最后的表示对从网络中采样得到的稀疏节点序列鲁棒。